是的,我又来读文献了。
找了两篇贝叶斯Lasso相关的文章,是一个大佬Rahim Alhamzawi写的,他还贡献了一个R包Brq,对应他论文所用的方法。三位作者分别是Rahim Alhamzawi, Keming Yu and Dries F Benoit, 我发誓我只打一次他们的名字。
理论
分位数回归
分位数回归模型可以表示如下:
其中$\{(x_i,y_i),i=1,2,…,n\}$表示一组独立的观测,$y_i$是被解释变量,$x_i’=(x_{i1},x_{i2},…,x_{ik}))$表示$k$维的解释变量,$\beta$是$k$维回归系数向量,最重要的是干扰项$\epsilon_i$,分布未知,但其p分位数恰好等于0,所以p分位数回归模型的预测值可以表达为如下形式:
$Q_{y_i}(p|x_i)$表示$y_i$累积分布函数的逆函数。
模型中参数的估计可以通过使以下目标函数最小来解决:
$\rho_p(u)=\left\{\begin{matrix}
pu,\ if \ u \geq0 \\
(p-1)u,\ if \ u<0
\end{matrix}\right.$,这个函数的意思是,大于0的残差在目标函数中分配的权重正是$p$,而小于0的残差在目标函数分配的权重是$(1-p)$,当然要记得取残差绝对值。可以看到这种约束在估计回归系数应该要采用一些特殊办法。然而如果假设干扰项服从skewed Laplace分布,问题将会大大简化。
skewed Laplace分布
Koenker and Machado (1999) and Yu and Moyeed (2001)给出了(1)式的最小化问题和极大似然理论之间的关系。(1)式的最小化问题等价于最大化$y_i$的似然函数,假设$y_i$服从skewed Laplace分布,且有$\mu=\beta_0+x_i’\beta,\ \sigma=1$
我们将具有如下概率密度函数的分布称为skewed Laplace分布:
其中$\mu$是位置参数,$\sigma$是尺度参数。skewed Laplace分布还有一个很重要的性质,它可以利用标准正态分布和指数分布的混合分布来表示:
其中$z\sim exp(\sigma),\ \xi \sim N(0,1), \ \theta=\frac{1-2p} {p(1-p)}, \ \phi^2=\frac{2} {p(1-p)}$,我想这里丢开的位置参数$\mu$应该是表示这个分布以y轴为对称轴。
含Lasso惩罚的分位数回归
结合式(1)和Lasso惩罚项,我们可以重写目标函数如下:
$\lambda$是一个非负的正则参数,式(3)的第二项叫做$l_1$范式惩罚,$\lambda$越大,Lasso将会压缩回归系数越来越靠近0.
好的,我们得到了一个复杂的目标函数,第一项$\rho_p(u)$是一个非对称的对勾函数,第二项是各回归系数的绝对值。
但Lasso中的求解其实用贝叶斯的观点来看会容易理解很多,所以说,学好贝叶斯,还有什么解决不了的。欢迎参见《Regularized Regression: A Bayesian point of view》